联合学习是一种数据解散隐私化技术,用于以安全的方式执行机器或深度学习。在本文中,我们介绍了有关联合学习的理论方面客户次数有所不同的用例。具体而言,使用从开放数据存储库中获得的胸部X射线图像提出了医学图像分析的用例。除了与隐私相关的优势外,还将研究预测的改进(就曲线下的准确性和面积而言)和减少执行时间(集中式方法)。将从培训数据中模拟不同的客户,以不平衡的方式选择,即,他们并非都有相同数量的数据。考虑三个或十个客户之间的结果与集中案件相比。间歇性客户将分析两种遵循方法,就像在实际情况下,某些客户可能会离开培训,一些新的新方法可能会进入培训。根据准确性,曲线下的区域和执行时间的结果,结果的结果的演变显示为原始数据被划分的客户次数。最后,提出了该领域的改进和未来工作。
translated by 谷歌翻译
在这项工作中,我们评估了人口模型和机器学习模型的合奏,以预测COVID-19大流行的不久的将来的演变,并在西班牙有特殊的用例。我们仅依靠开放和公共数据集,将发生率,疫苗接种,人类流动性和天气数据融合来喂养我们的机器学习模型(随机森林,梯度增强,K-Nearest邻居和内核岭回归)。我们使用发病率数据来调整经典人群模型(Gompertz,Logistic,Richards,Bertalanffy),以便能够更好地捕获数据的趋势。然后,我们整合了这两个模型家族,以获得更强大,更准确的预测。此外,我们已经观察到,当我们添加新功能(疫苗,移动性,气候条件)时,使用机器学习模型获得的预测有所改善,使用Shapley添加说明值分析了每个功能的重要性。就像在任何其他建模工作中一样,数据和预测质量都有多个局限性,因此必须从关键的角度看待它们,如我们在文本中所讨论的那样。我们的工作得出的结论是,这些模型的合奏使用可以改善单个预测(仅使用机器学习模型或仅使用人口模型),并且在由于缺乏相关数据而无法使用隔室模型的情况下,可以谨慎地应用。
translated by 谷歌翻译
Multivariate Hawkes processes are temporal point processes extensively applied to model event data with dependence on past occurrences and interaction phenomena. In the generalised nonlinear model, positive and negative interactions between the components of the process are allowed, therefore accounting for so-called excitation and inhibition effects. In the nonparametric setting, learning the temporal dependence structure of Hawkes processes is often a computationally expensive task, all the more with Bayesian estimation methods. In general, the posterior distribution in the nonlinear Hawkes model is non-conjugate and doubly intractable. Moreover, existing Monte-Carlo Markov Chain methods are often slow and not scalable to high-dimensional processes in practice. Recently, efficient algorithms targeting a mean-field variational approximation of the posterior distribution have been proposed. In this work, we unify existing variational Bayes inference approaches under a general framework, that we theoretically analyse under easily verifiable conditions on the prior, the variational class, and the model. We notably apply our theory to a novel spike-and-slab variational class, that can induce sparsity through the connectivity graph parameter of the multivariate Hawkes model. Then, in the context of the popular sigmoid Hawkes model, we leverage existing data augmentation technique and design adaptive and sparsity-inducing mean-field variational methods. In particular, we propose a two-step algorithm based on a thresholding heuristic to select the graph parameter. Through an extensive set of numerical simulations, we demonstrate that our approach enjoys several benefits: it is computationally efficient, can reduce the dimensionality of the problem by selecting the graph parameter, and is able to adapt to the smoothness of the underlying parameter.
translated by 谷歌翻译
传统上,音乐标记和基于内容的检索系统是使用预定的本体论构建的,涵盖了一组刚性的音乐属性或文本查询。本文介绍了Mulan:首次尝试新一代的声学模型,这些模型将音乐音频直接与无约束的自然语言描述联系起来。Mulan采用了两座联合音频文本嵌入模型的形式,该模型使用4400万张音乐录音(37万小时)和弱相关的自由形式文本注释训练。通过与广泛的音乐流派和文本样式(包括传统的音乐标签)的兼容性,由此产生的音频文本表示形式涵盖了现有的本体论,同时又毕业至真正的零击功能。我们通过一系列实验演示了Mulan嵌入的多功能性,包括转移学习,零照片标记,音乐域中的语言理解以及跨模式检索应用程序。
translated by 谷歌翻译
我们分析了一个随机近似算法的决策依赖性问题,其中算法沿迭代序列演变的数据分布。此类问题的主要示例出现在表演预测及其多人游戏扩展中。我们表明,在温和的假设下,算法的平均迭代和溶液之间的偏差在渐近正常上,协方差很好地解除了梯度噪声和分布移位的影响。此外,在H \'Ajek和Le Cam的工作中,我们表明该算法的渐近性能是本地最小的最佳选择。
translated by 谷歌翻译
成功的数据表示是基于机器学习的医学成像分析的基本因素。深度学习(DL)在强大的表示学习中起着至关重要的作用。但是,深层模型无法概括地看不见的数据可以快速过度拟合复杂的模式。因此,我们可以方便地实施策略,以帮助深入模型,从数据中发现有用的先验,以了解其内在属性。我们称之为双重角色网络(DRN)的模型使用基于最小平方相互信息(LSMI)的依赖关系最大化方法。 LSMI利用依赖度量来确保表示不变性和局部平滑度。尽管先前的工作使用了信息理论诸如相互信息(由于密度估计步骤)在计算上很昂贵的信息理论,但我们的LSMI公式减轻了棘手的相互信息估计的问题,可以用来近似它。基于CT的COVID-19检测和COVID-19的严重程度检测基准的实验证明了我们方法的有效性。
translated by 谷歌翻译
贝叶斯核心通过构建数据点的一个较小的加权子集近似后验分布。任何在整个后验上运行的推理过程在计算上昂贵,都可以在核心上廉价地运行,其结果近似于完整数据上的结果。但是,当前方法受到大量运行时的限制,或者需要用户指定向完整后部的低成本近似值。我们提出了一种贝叶斯核心结构算法,该算法首先选择均匀随机的数据子集,然后使用新型的准Newton方法优化权重。我们的算法是一种易于实现的黑框方法,不需要用户指定低成本后近似。它是第一个在输出核心后部的KL差异上带有一般高概率构成的。实验表明,我们的方法可与具有可比的施工时间的替代方案相比,核心质量有显着改善,所需的存储成本和用户输入要少得多。
translated by 谷歌翻译
人类注释在机器学习(ML)研究和开发中发挥着至关重要的作用。然而,正在建立ML数据集的过程和决策周围的道德考虑并没有接近足够的重视。在本文中,我们调查了一系列文献,这些文献提供了对众群数据集注释的道德考虑的洞察。我们综合这些见解,并沿着两层奠定了这个空间中的挑战:(1)注释者是谁,并且注释者的生活经验如何影响他们的注释,以及注释器与众群平台之间的关系那么这种关系都为他们提供了什么。最后,我们在ML数据流水线的各个阶段提出了一个具体的建议和考虑因素,以ML数据流水线的各个阶段:任务制定,选择注释,平台和基础架构选择,数据集分析和评估以及数据集文档和发布。
translated by 谷歌翻译
在过去的十年中,通过在机器学习的深度学习和其他接近的深度学习和其他方法杠杆化的自主导航。这些方法在机器人性能方面具有明显的显着优势。 Butthey有缺点,他们需要大量的数据进入知识。在本文中,我们介绍了一种算法,其中包含具有基于机器学习和测试机器学习的属性的属性的算法。地图基于Dungeons环境,其中建造了Sev-Eral随机房间,然后是那些房间。此外,我们提供了一个数据集,由所提出的算法和延长信息的描述提供了10,000 MapsSsssprofuctumpuce。这种信息包括路径存在的验证,最佳路径,距离等其他属性。我们认为,赛义斯及其相关信息可能是一个非常有用的传感器爱好者和研究人员,他们想要测试防范方法。数据集是可用的Athttps://github.com/gbriel21/map2d_dataset.git
translated by 谷歌翻译
我们调查与高斯的混合的数据分享共同但未知,潜在虐待协方差矩阵的数据。我们首先考虑具有两个等级大小的组件的高斯混合,并根据最大似然估计导出最大切割整数程序。当样品的数量在维度下线性增长时,我们证明其解决方案实现了最佳的错误分类率,直到对数因子。但是,解决最大切割问题似乎是在计算上棘手的。为了克服这一点,我们开发了一种高效的频谱算法,该算法达到最佳速率,但需要一种二次样本量。虽然这种样本复杂性比最大切割问题更差,但我们猜测没有多项式方法可以更好地执行。此外,我们收集了支持统计计算差距存在的数值和理论证据。最后,我们将MAX-CUT程序概括为$ k $ -means程序,该程序处理多组分混合物的可能性不平等。它享有相似的最优性保证,用于满足运输成本不平等的分布式的混合物,包括高斯和强烈的对数的分布。
translated by 谷歌翻译